BEV Fusion - Sen(Qian)’s Memo

BEV Fusion

Multi Sensor Fusionが自動運転に重要。カメラとLiDAR(いろんな光を出して、それの反射光で距離を測定するもの　出力は1本の光ごとに1つの点なので、点群)

ただ、LiDARは距離的な歪みが生じる。近傍の点なのに、距離としては非常に離れていると扱われること。

BEV map(鳥瞰図)の各部分セルが何なのかをカテゴリすることに、精度が低くなる問題が起こる。

既存の解決手法はあるが計算量は大きい。この論文はこれを改善した。

point-level-fusion: ポイントレベルの融合は、複数のデータソースからの情報が、それぞれのピクセルやポイントに対して組み合わせる手法。

mIoU: 各セルで、例えば「山」と予測したエリアAと、実際に「山」だったエリアBにおいて、 $\frac{A \cap B}{A \cup B}$ という指標。1に近いほど良い。

先行研究のMVP: Multimodal Virtual Prediction 。

やりたいこと: 2次元画像の奥行をうまく予測したい！

2つのセンサーを1つの鳥瞰図に投影したい。地理的な情報(ここは○○の隣)も、意味的な情報(ここは「山」)も落とさずに格納したい。

カメラ画像から鳥瞰図にするには、画像からEncoderで何かしらの特徴を抽出して、それをうまく鳥瞰図にしたい。

奥行も撮れる、 $XYZ$ のカメラがあるとする。(複数台のカメラで撮っている感じ)

$r \times r$ の鳥瞰図の2次元画像グリッドごとに、poolingしてそのグリッドを代表する奥行を推測する。これをやる予測器をまず開発したよ。